Zusammenfassung 2018-04-28T0800
Einführung (BUJ)
Methodologie theoretisch
- CRISP https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
- Kornmeier "Wiss. Schreiben", Kap 5.4.3 Analyse empirischer Daten
- Kap. 12 in N.Döring, J.Bortz: Forschungsmethoden und Evaluation
- 1 Semester Vollzeit in der Soziologie, Psychologie
- Experte: ...
- Übersicht über die Lernstrategie zu DS
Data Science komplett
https://www.codecademy.com/learn/learn-pythonVoraussetzungen
https://www.datacamp.com/courses/intro-to-python-for-data-science/
- Python Basics
- Python Lists
- Functions and Packages
- NumPy
"dicke" Tutorials
https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/
- Python Grundkurs mit Ausrichtung nach Data Science
- (beinhaltet auch Grundkurs für NumPy, ein Python Tool für Datenauswertung)
- "Inder": next steps; beginner, advanced, expert
- Diskussion: Moodle etherpad
- Inhalt
- Basics of Python for Data Analysis
- Why learn Python for data analysis?
- Python 2.7 v/s 3.4
- How to install Python?
- Running a few simple programs in Python
- Python libraries and data structures
- Python Data Structures
- Python Iteration and Conditional Constructs
- Python Libraries
- Exploratory analysis in Python using Pandas
- Introduction to series and dataframes
- Analytics Vidhya dataset- Loan Prediction Problem
- Data Munging in Python using Pandas
- Building a Predictive Model in Python
- Logistic Regression
- Decision Tree
- Random Forest
- Basics of Python for Data Analysis
- Data Science in Python – from a python noob to a Kaggler:
- Kein eigenes Material, sondern eine kommentierte Linksammlung - also das, was diese Sammlung hier auch will
- Diskussion: Moodle etherpad
- Inhalt: Infographic: Quick Guide to learn Data Science in Python
https://www.kaggle.com/kanncaa1/data-sciencetutorial-for-beginners
- Expert level
- DataScience Tutorial auf Basis von Kaggle und Python
- Grundkenntnisse sind vorausgesetzt, sehr starke Konzentration auf Kaggle Plattform, weite Abdeckung, evtl. auszugsweise Intressant?
- Diskussion: Moodle etherpad
https://developers.google.com/machine-learning/crash-course/
- Google- Kurs, weitgehend
- Diskussion: Moodle etherpad
- Prerequisite:Python Programming
- Basic Python Defining and calling functions, using positional and keyword parameters | Dictionaries, lists, sets (creating, accessing, and iterating) | for loops, for loops with multiple iterator variables (e.g., for a, b in [(1,2), (3,4)]) | if/else conditional blocks and conditional expressions | String formatting (e.g., '%.2f' % 3.14) | Variables, assignment, basic data types (int, float, bool, str) | The pass statement
- Intermediate Python List comprehensions | Lambda functions
- Inhalte:
Cheat Sheets
Cheat Sheets für Machine Learning, Python und vieles mehr: https://becominghuman.ai/cheat-sheets-for-ai-neural-networks-machine-learning-deep-learning-big-data-678c51b4b463
Große Liste mit Lernressourcen zur Machine Learning: https://github.com/ujjwalkarn/Machine-Learning-Tutorials/blob/master/README.md
Bewertung der Tutorials
eigene Schätzung oder angegeben? Stimmen die Angaben für unsere Studierenden?
- Didaktisierung, Lernpfad wie transparent?
- Zeitaufwand
- Voraussetzungen
- Programmieren
- Statistik
- Lernergebnis
- Wie sind die formuliert
- Was hat man, was fehlt?
- Kompetenzniveau
- Schwierigkeit
Bewertung Tutorial-Technik
- lokale Installation auf Laptop
- gute Erfahrung mit DokuWikiOnAStick
- basierend auf Jupyter, interaktiv
- Cloud, Online
- Kaggle
- (eher nicht: Hochschul-Server, VPN)
- Replikation auf eigene Maschine
- Kernel 'runterladen mit 2 Terminalbefehle
- anaconda 500MB
- ggf. mit xubuntu auf virtualbox, 5MB
Bewertung Kursergebnisse
- einfach wäre es mit Kaggle inClass
Host-Sprachen
- Python
- Text processing mit Python: [[ https://www.kdnuggets.com/2018/03/text-data-preprocessing-walkthrough-python.html
- Gutes Walktrough für gängiste Python-Tools
- Tags: Data Preparation, Data Preprocessing, NLP, Python, Text Analytics, Text Mining
- https://machinelearningmastery.com/machine-learning-in-python-step-by-step/
- Text processing mit Python: [[ https://www.kdnuggets.com/2018/03/text-data-preprocessing-walkthrough-python.html
- R
- https://www.edureka.co/blog/data-science-tutorial/
- https://www.analyticsvidhya.com/blog/2016/02/complete-tutorial-learn-data-science-scratch/
- andere
- Matlab
- SPSS
große Frameworks
- auf Zuruf ... 2bd: mit Quelle bestätigen!
- tensorflow
- scikit
- spark?
- caffee
- theano: eingestellt
- Neuronale Netze
- Eine Einführung: http://www.neuronalesnetz.de/
- Deep Learning
- https://www.kaggle.com/learn/deep-learning
- Videokurs Deep Learning: https://classroom.udacity.com/courses/ud730
- Convolutionals Neural Networks (CNN)
- CNN einfach mit viel Beispielen: An Intuitive Explanation of Convolutional Neural Networks: https://ujjwalkarn.me/2016/08/11/intuitive-explanation-convnets/
- Vorlesungsreihe Uni Standford CNN (geht tief rein): https://www.youtube.com/playlist?list=PL3FW7Lu3i5JvHM8ljYj-zLfQRF3EO8sYv
- TensorFlow (<-- Aktuell am gefragtesten)
- andere
Bibliotheken für einzelne Schritte
- Data Preparation
- Visualisierung
- seaborn
- plotly
- rare-visualization-tools
- pandas
- pandas: https://www.youtube.com/watch?v=ikOEn8jY2Is (webinar)
- bokeh
- Teil 1: https://www.kaggle.com/kanncaa1/interactive-bokeh-tutorial-part-1
- Teil 2: https://www.kaggle.com/kanncaa1/interactive-bokeh-tutorial-part-2
- https://www.kaggle.com/learn/data-visualisation
- misc
- scikit
- Caffe (<-- Eher schwergängig, im akademischen Bereich zu finden)
- Einfaches Getting Started Tutorial ohne viel Code: https://github.com/humphd/have-fun-with-machine-learning
- https://www.gesis.org/angebot/daten-analysieren/instrumente-zur-analyse-digitaler-verhaltensdaten/
- iLCM - A virtual research infrastructure for large-scale qualitative data [...] basiert auf dem Leipzig Corpus Miner (LCM) [...] „Notebooks“
Datenquellen für ML
- https://www.kaggle.com/datasets | https://www.kaggle.com/competitions
- https://datahack.analyticsvidhya.com/contest/all/
- https://www.gesis.org/angebot/daten-analysieren/: insbes. Allbus, aber auch viele mehr
- Wikipedia Liste von Datenquellen für Machine Learning: https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research
Technik
- integrated development environment (IDE)
- Jupyter
- Datenbank, Cloud
- Hadoop
- Einstieg in Hadoop (und MapReduce): KOSTENLOSER Kurs: https://de.udacity.com/course/intro-to-hadoop-and-mapreduce--ud617
- Spark
- Tutorial zu Apache Spark: https://www.tutorialspoint.com/apache_spark/index.htm
- BigQuery
- SQL
- CSV
- andere?
- Hadoop
Problemklassen
- systematisch
- https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research
- Überschriften?
- dort "default task"
- https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research
- zuruf
- Predictive Analytics
- Warenkorb-Analysen
- Ausreißer, Ausnahmen-Erkennung
Normatives
- Recht
- Datenschutz
- Ethik
Anhang
BUJ: Verwendung von leichtgewichtigen Ontologien (z.B. SKOS) beim Machine Learning Business Intelligence BI Natural Language Processing (NLP) Bildverarbeitung, Signal Processing Extract Transfer Load (ETL) Terminologiemanagement, Drewer/Schmitz Semantic Web https://www.alexanderthamm.com/de/data-science-trainee-programm/ https://developers.google.com/machine-learning/crash-course/glossary Begriffe JB
einzelne Fragestellungen der TN (OpenSpace-Talks)
Benachbarte Disziplinen
Curricula
Business
Glossar